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中 文 命名 实体 识别 


摘要 : 针对 目前 中 文 命名 实体 识别 研究 中 存在 的 语义 特征 提取 不 充分 、 不 全面 等 
问题 ，Transformers(BERT) 在 各 种 相关 NLP 任务 中 显示 出 惊人 的 改进 ， 并 且 已 经 
提出 了 连续 的 变 体 来 进一步 提高 预 训练 语言 模型 的 性 能 。 在 本 文中 , 我 们 的 目标 
是 重新 审视 中 文 预 训 练 语言 模型 ， 以 检验 它们 在 非 英语 语言 中 的 有 效 性 。 本 文 基 
于 RoBERT 模型 进行 微调 ， 实 验 结果 表明 ， 在 许多 NLP 任务 上 表现 良好 。 
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ABSTRACT:In response to the current problems of inadequate and incomplete 
semantic feature extraction in Chinese named entity recognition research, 
Transformers (BERT) has shown striking improvements in a variety of related NLP 
tasks, and successive variants have been proposed to further improve the performance 
of pre-trained language models. In this paper, our goal is to revisit Chinese pre-trained 
language models to examine their effectiveness in non-English languages. This paper 
is based on the RoBERT model for fine-tuning, and experimental results show good 


performance on many NLP tasks. 
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l1 研究 背景 


命名 实体 识别 NER(named entity recognitiom) 是 指 从 一 段 自 然 语 言 文 本 中 标 
注 相 关 实 体 的 位 置 和 类 型 。 例 如 新 闻 领 域 的 人 名 、 地 名 和 机 构 名 等 名 称 的 识别 ， 
医疗 领域 的 疾病 和 症状 等 实体 的 识别 。 NER 通常 利用 序列 标注 方式 联合 识别 实体 
边界 和 确定 实体 类 型 。NER 在 知识 图 谱 构 建 、 信 息 抽取 、 信 息 检索 、 机 器 翻译 、 
自动 问答 及 与 情 监 测 等 任务 中 都 有 广泛 应 用 , 是 自然 语言 处 理 的 基础 之 一 。 在 信 
AZEM, FH NER 分 析 相 关 实 体 ， 可 以 发 现 社交 媒体 中 潜在 的 安全 问题 ， 
也 可 以 通过 识别 相关 实体 提供 有 效 的 信息 来 跟 踊 这 些 安全 问题 。 

中 文 命名 实体 识别 的 相关 背景 源 于 自然 语言 处 理 领 域 的 发 展 。 随 着 互联 网 和 
社交 媒体 的 普及 ， 人 们 产生 了 大 量 的 文本 内 容 ， 处理 这 些 文本 数据 成 为 一 项 重要 
的 任务 。 其中， 文本 中 包含 的 实体 信息 对 于 文本 理解 和 信息 提取 至 关 重 要 ， 而 命 
名 实体 就 是 文本 中 最 具 代 表 性 的 实体 之 一 。 

由 于 中 文 的 语言 特点 和 词汇 特征 ， 中 文 NER 面临 着 一 些 独特 的 挑战 。 首 先 ， 
中 文 词语 常常 由 多 个 汉字 构成 ,， 且 没 有 空格 进行 分 隔 , 因此 需要 对 中 文 文本 进行 
分 词 。 其 次 ， 中 文中 的 实体 名 称 常 党 具有 多 种 表达 方式 ， 如 "北京 市 “北京 “、 
“首都 “等 ， 需 要 进行 同义词 的 匹配 和 处 理 。 此 外 ， 还 存在 涉及 多 个 实体 的 复杂 命 
名 实体 识别 问题 。 

为 应 对 这 些 挑 战 , 研究 者 们 利用 了 深度 学 习 等 新 技术 来 开发 和 优化 中 文 NER 
模型 ， 不 断 提 高 实体 识别 的 准确 性 和 效率 。 这 些 模型 已 经 广泛 应 用 于 搜索 引擎 、 
言 息 提取 、 机 器 翻译 等 领域 ， 并 持续 推动 着 自然 语言 处 理 技术 的 发 展 。 


1.2 中 文 命名 实体 识别 研究 现状 


对 于 中 文 NER， 最 初 的 研究 聚焦 于 专业 名 词 的 研究 ， 张 小 衡器 等 根据 机 构 名 
称 的 结构 规律 和 形态 标记 等 特点 进一步 总 结 规则 , 从 600 多 万 的 三 地 语料库 中 识 
别 高 校 名 称 实体 ， 正 确 率 达 到 了 97.3%。 王 宁 等 从 专业 名 词 识 别 的 角度 ， 充 分 考 
虑 金融 领域 的 特征 ,利用 规则 的 方法 专门 针对 公司 名 的 识别 问题 进行 了 研究 。 该 
方法 分 析 研 究 了 金融 新 闻 文 本 , 总 结 了 公司 名 的 结构 特征 以 及 上 下 文 信息 , 归纳 
形成 知识 库 ， 并 采取 两 次 扫描 的 策略 进行 识别 。 在 共 1336 篇 真实 金融 新 闻 的 数 
据 集 上 进行 实验 ， 其 中 在 封闭 测试 环境 中 的 准确 率 和 召回 率 分 别 为 97.13% 和 
89.13%， 在 开放 测试 环境 中 分 别 为 62.18% 和 62.1196. 

对 于 中 文 NER， 张 华 平 中 等 借助 HMM 提出 了 基于 角色 标注 的 中 国人 名 自动 
识别 方法 。 该 方法 采取 HMM 对 分 词 结果 进行 角色 标注 ， 通 过 对 最 佳 角色 序列 的 
最 大 匹配 来 识别 和 分 类 命名 实体 ， 该 方法 解决 了 不 有 具备 明显 特征 的 姓名 的 丢失 、 
内 部 成 词 以 及 上 下 文成 词 的 人 名 难 召 回 的 问题 。 俞 鸿 魁 等 提出 一 种 基于 层 考 
HMM 的 中 文 NER 模型 ， 该 模型 由 三 级 HMM 构成 。 在 分 词 后 低层 的 HMM 识别 
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对 于 中 文 NER, 李 丽 双 外 等 提出 一 种 基于 SVM 的 中 文 地 名 的 自动 识别 的 方法 ， 


结合 地 名 的 特点 信息 作为 向 量 的 特征 。 此 外 ， 面 对 训练 数据 不 足 的 难点 ,陈雷 等 
针对 中 文 组 织 机 构 名 的 识别 任务 ， 提 出 了 一 种 基于 SVM 的 分 布 递增 式 学 习 的 方 


法 , 利用 主动 学 习 的 策略 对 训练 样本 进行 选择 , 逐步 增加 分 类 器 训练 样本 的 规模 ， 
进一步 提高 分 类 器 的 识别 精度 。 

对 于 中 文 NER， 冯 元 勇 外 等 在 CRF 框架 中 引入 了 小 规模 的 常用 尾 字 特 征 来 降 
低 特 征集 的 规模 ,在 提高 模型 训练 速度 同时 保证 识别 准确 率 。 燕 杨 等 针对 中 文 电 
子 病历 的 NER 问题 ， 提 出 一 种 层 倒 CRF， 该 模型 在 第 二 层 中 使 用 包含 实体 和 词性 
等 特征 的 特征 集 ， 对 疾病 名 称 和 临床 症状 两 类 命名 实体 进行 识别 。 与 无 自 定 义 组 
合 特征 的 层 县 CRF 相 比 , 该 模型 的 F1 值 提 高 了 约 3 个 百分点 ， 和 单 层 CRF 相 比 ， 
F1 值 提高 了 约 7 个 百分点 。 

半 监 督学 习 的 NER 方法 主要 采用 目 举 的 方法 ， 该 方法 利用 少量 的 标注 数据 
进行 训练 ,从 而 取得 良好 的 实验 结果 。 如 Teixeira5 等 提出 一 种 基于 CRF 的 自 举 训 
练 方法 , 首先 基于 词典 对 50000 条 新 闻 标 注 人 名 , 并 使 用 标注 好 人 名 的 数据 作为 
训练 集 建立 基于 CRF 的 分 类 模型 ,然后 使 用 CRF 分 类 模型 对 初始 种 子 语料库 额外 
标注 ， 并 将 其 用 于 训练 新 的 分 类 模型 。 该 模型 经 过 7 次 自 举 方法 的 迭代 后 ， 在 
HAREM 数据 集 上 进行 实验 表现 良好 。 此 外 ，Thenmalart9 等 不 仅 在 英文 语 料 中 使 
用 半 监 督 的 自 举 方法 , 还 增加 了 泰 米尔 文 语 料 进一步 验证 该 方法 的 可 行 性 。 该 方 
法 利用 少量 训练 数据 中 命名 实体 、 单 词 和 上 下 文 特征 来 定义 模式 , 分 别 对 英文 和 
泰 米尔 文 进行 NER， 两 种 语言 的 平均 F1 值 为 75%。 

对 于 中 文 NER， 针 对 结构 复杂 的 产品 名 的 识别 任务 ， 黄 诗 琳 中 等 提出 一 种 半 
监督 学 习 方 法 , 提取 不 同 产品 实体 的 结构 特征 和 相互 关系 , 构建 一 种 三 层 半 监督 
学 习 框架 。 首 层 结合 规则 和 词典 选取 数据 集中 的 候选 数据 ; 第 二 层 利用 相似 度 算 
法 , 把 与 种 子 集 上 下 文 相似 的 候选 词 加 入 正 例 中 , 这 一 步骤 能 解决 数据 稀 玻 问题 ; 
第 三 层 是 一 个 CRF 的 分 类 器 用 于 识别 相似 度 较 低 的 实体 。 但 因 产 品名 的 表达 方式 
多 样 化 ， 该 方法 与 一 般 的 NER 方法 相 比 ， 性 能 还 存在 一 定 的 差距 。 在 医学 NER 
EZE, Long 等 提出 一 个 基于 自 举 的 NER 方法 ， 在 自 举 训练 过 程 中 将 命名 实体 
特征 集 表示 为 类 特征 向 量 , 候选 命名 实体 的 上 下 文 信息 表示 为 示例 特征 问 量 ,这 
两 种 特征 向 量 的 相似 程度 决定 了 候选 实体 是 否 为 命名 实体 。 此 外 ,针对 少数 民族 
语言 的 NER 任务 ， 王 路 路 名 等 以 CRF 为 基本 框架 ,通过 引入 词法 特征 、 词 典 特征 
以 及 基于 词 向 量 的 无 监督 学 习 特 征 ,， 对 比 不 同 特征 对 识别 结果 的 影响 ,进而 得 到 
最 优 模 型 。 

Etzioni9] 等 提出 了 一 个 名 为 KnowwitAll 的 无 监督 NER 系统 ， 该 系统 以 无 监督 
和 可 扩展 的 方式 自动 地 从 网 页 中 提取 大 量 命名 实体 。NadeauHo 等 在 Etzioni 等 的 
基础 上 进一步 研究 ， 该 系统 可 以 自动 构建 地 名 词典 以 及 消解 命名 实体 歧义 ,将 构 
建 的 地 名 词典 与 常用 的 地 名 词典 相 结合 。Hant3 等 提出 一 个 基于 聚 类 主动 学 习 的 
生物 医学 NER 系统 ， 该 聚 类 方法 通过 使 用 底层 分 类 器 在 文档 中 查找 候选 命名 实 
体 来 进行 聚 类 ， 因 而 更 能 反映 命名 实体 的 分 布 。 无 监督 学 习 的 NER 方法 既 能 解 
决 有 监督 学 习 中 需要 大 量 带 标注 的 训练 数据 的 问题 , 也 不 需要 少量 标注 的 种 子 数 
据 , 但 是 这 种 方法 需要 提前 确定 聚 类 阅 值 并 且 性 能 较 低 ， 仍 需 进 一 步 改善 聚 类 方 
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全 局 特征 ， 然 后 利用 局 部 特征 和 全 局 特征 以 识别 临床 文本 中 的 命名 实体 。Wu 等 
提出 了 一 种 CNN-LSTM-CRF， 以 获取 短 距 离 和 长 距离 内 容 依 赖 ， 同 时 提出 将 NER 
和 分 词 任务 联合 学 习 以 挖掘 这 两 个 任务 之 间 的 内 在 联系 ， 增 强 中 文 NER 模型 识 
别 实体 边界 的 能 力 ， 但 该 模型 无 法 捕捉 全 局 的 上 下 文 信息 。 因 此 ，Kong 等 提出 
一 种 融合 多 层次 CNN 和 注意 力 机 制 的 中 文 临 床 NER 方法 。 该 方法 既 能 捕捉 短 距 
离 和 长 距离 的 上 下 文 信息 , 且 注 意 力 机 制 还 能 获取 全 局 上 下 文 信息 ,进一步 解决 
了 LSTM 在 句子 较 长 时 无 法 捕捉 全 局 信息 的 问题 。 但 该 方法 目前 对 稀有 命名 实体 
仍然 存在 难以 识别 的 问题 ， 因 此 ，Guina 等 将 词典 信息 融合 到 CNN 结构 中 ， 解 决 
稀有 实体 识别 的 问题 。 可 以 发 现 ，CNN 最 大 的 特点 是 可 以 并 行 化 ,每 个 时 间 状 态 
不 受 上 一 时 间 状 态 的 影响 ， 但 其 无 法 很 好 地 提取 序列 信息 。 随 着 RNN 的 深入 研 
究 ，CNN 和 RNN 常常 混合 使 用 。 

Huangn4 等 在 Collobert 等 基础 上 ， 提 出 了 多 种 基于 LSTM 的 序列 标注 模型 ， 
包括 LSTM、Bi-LSTM 和 BiLSTM-CRF 等 。 首 次 将 Bi-LSTM-CRF 模型 用 于 NER， 该 模 
型 不 仅 可 以 同时 利用 上 下 文 的 信息 ， 而 且 可 以 使 用 句子 作为 输入 。Gregorict'5 等 
在 同一 输入 端 采用 多 个 独立 的 Bi-LSTM 单元 ,通过 使 用 模型 间 正 则 化 来 促进 LSTM 
单元 之 间 的 多 样 性 ， 能 够 减少 模型 的 参数 。Li 等 提出 一 个 模块 化 交互 网 络 模型 用 
于 NER， 能 同时 利用 段 级 信息 和 词 级 依赖 。Xu 等 提出 一 种 有 监督 多 头 自 注意 网 
络 的 NER 模型 ， 利 用 自我 注意 力 机 制 获取 句子 中 词 与 词 之 间 的 关系 ， 并 引入 一 
个 多 任务 学 习 框 架 来 捕捉 实体 边界 检测 和 实体 分 类 之 间 的 依赖 关系 。 

对 于 中 文 NER，Zhangt9 等 首次 提出 了 基于 混合 字符 和 词典 的 Lattice-LSTM 
模型 ,通过 门 控 单元 , 将 词汇 信息 租 入 到 每 个 字符 中 ， 从 而 利用 上 下 文中 有 用 的 
词汇 提升 NER 效果 。 但 是 由 于 词汇 的 长 度 和 数量 无 法 确定 ，Lattice-LSTM 存在 无 
法 批量 训练 而 导致 模型 训练 较 慢 的 问题 。 为 了 解决 该 问题 ，Liu 等 提出 了 基于 单 
词 的 LSTM CWC-LSTM) 。 该 方法 在 输入 的 向 量 中 融入 最 优 词汇 的 信息 ， 在 正 向 
LSTM 中 融入 基于 该 字 开 头 的 词汇 信息 ， 在 反 向 LSTM 中 融入 基于 该 字 结尾 的 词 
汇 信息 。Ma 等 也 在 Lattice-LSTM 模型 基础 上 做 了 改进 ,不 修改 LSTM 的 内 部 结构 ， 
只 在 输入 层 进 行 词 与 所 有 匹配 到 的 词汇 信息 的 融合 , 该 方法 还 可 以 应 用 到 不 同 的 
序列 模型 框架 中 ， 如 CNN 和 Transformer。 

在 中 文 领域 ， 为 了 解决 在 NER 过 程 中 使 用 词典 的 最 长 匹配 和 最 短 匹配 带 来 
的 问题 ，Ding07 等 提出 了 一 种 基于 GNN 并 结合 地 名 词典 的 NER 方法 ， 其 目的 使 
模型 自动 学 习 词典 的 特征 。 该 模型 首先 根据 地 名 词典 构图 ， 然后 依次 通过 GGNN 
层 、LSTM 层 和 CRF 层 进行 实体 的 识别 。Guiaa 等 通过 引入 一 个 具有 全 局 语义 的 基 
于 词典 的 GNN 模型 来 获取 全 局 信息 。 此 外 ，Tangm9 等 进一步 研究 了 如 何 将 词汇 
信息 整合 到 基于 字符 的 方法 中 , 提出 一 种 基于 单词 -字符 图 卷 积 网 络 CWC-GCND ， 
通过 使 用 交叉 GCN 块 同时 处理 两 个 有 癌 无 环 图 ， 并 引入 全 局 GCN 块 来 学 习 全 局 
上 下 文 的 节点 表示 。 

对 于 中 文 NER，ZhangP2o 等 利用 远程 监督 的 方法 识别 时 间 ， 提 出 了 一 种 利用 
中 文 知 识 图 谱 和 百度 百科 生成 的 数据 集 进行 模型 训练 的 方法 , 该 方法 不 需要 手动 
标注 数据 ， 且 对 不 同类 型 的 文本 的 适应 性 良好 。 此 外 ， 边 俐 普 R4 基 于 深度 学 习 和 
远程 监督 的 方法 针对 产品 进行 实体 识别 , 利用 扑 虫 整理 得 到 的 词典 高 质量 地 标注 
数据 ， 按 照 词 典 完 全 匹配 、 完 全 匹配 + 规则 、 核 心 词汇 + 词性 扩展 + 规则 这 三 种 方 
式 进 行 实体 识别 ， 该 方法 能 大 大 减少 手工 标注 语料库 的 工作 量 。 
基于 Transformer 方法 典型 代表 是 BERT23 类 的 预 训 练 模型 Souza PEE NER 
任务 上 提出 一 种 BERT-CRF 模型 ,将 BERT 的 传输 能 力 与 CRF 的 结构 化 预测 相 结合 。 
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Naseem 44 Ji Ht — Repo] ^E E ^. NER 的 预 训练 语言 模型 BioALBERT， 该 模型 
在 ALBERT 中 使 用 自我 监督 损失 ， 能 较 好 学 习 上 下 文 相关 的 信息 。Yang 等 提出 了 
一 种 分 层 的 Transformer 模型 ， 应 用 于 骨 套 的 NER。 实 体 表征 学 习 结 合 了 以 自 下 
而 上 和 上 自 上 而 下 的 方式 聚集 的 相 邻 序列 的 上 下 文 信息 。 

对 于 中 文 NER， 李 妮 529 等 提出 了 基于 BERTIDCNN-CRF 的 中 文 NER 模型 ， 该 
模型 通过 BERT 预 训 练 模型 得 到 字 的 上 下 文 表示 , 再 将 字 向 量 序列 输入 IDCNN-CRF 
模型 中 进行 训练 。Li 等 为 解决 大 规模 标记 的 临床 数据 匮乏 问题 ， 在 未 标记 的 中 国 
临床 电子 病历 文本 上 利用 BERT 模型 进行 预 训练 ， 从 而 利用 未 标记 的 领域 特定 知 
识 ， 同 时 将 词典 特征 整合 到 模型 中 ， 利 用 汉字 字 根 特征 进一步 提高 模型 的 性 能 。 
Wu 等 在 Li 等 的 基础 上 ， 提 出 了 一 个 基于 RoBERTa 和 字 根 特征 的 模型 ， 使 用 
RoBERTa 学 习 医 学 特征 ， 同 时 利用 Bi-LSTM 提取 偏旁 部 首 特征 和 RoBERTa 学 习 到 
医学 特征 向 量 做 拼接 ， 解 码 层 使 用 CRF 进行 标签 解码 。Yao 等 针对 制造 文本 进行 
细 粒 度 实体 识别 ， 提 出 一 种 基于 ALBERT-AttBiLSTMCRF 和 迁移 学 习 的 模型 ， 使 用 
更 轻 量 级 的 预 训练 模型 ALBERT 对 原始 数据 进行 词 戏 入 ,Bi-LSTM 提取 词 戏 入 的 特 
征 并 获取 上 下 文 的 信息 ， 解 码 层 使 用 CRF 进行 标签 解码 。 


2 研究 概述 


本 文中 ， 引 入 预 训 练 模型 进行 NER 任务 训练 ， 采 用 RoBERT 模型 ， 该 模型 
昌 哈 工大 讯 飞 联合 实验 室 开 发 。 本 文 将 该 模型 进行 微调 ， 并 部 署 在 服务 器 上 。 


Lu 


2.4 预 训练 模型 


BERT 全 称 为 Bidirectional Encoder Representation from Transformers 〈 来 自 
Transformers 的 双向 编码 表示 ) ， 人 和 谷歌 发 表 的 发 的 论文 Pre-traning of Deep 
Bidirectional Transformers for Language Understanding 中 提出 的 一 个 面向 自然 语言 
处 理 任 务 的 无 监督 预 训练 语言 模型 是 近年 来 自然 语言 处 理 领 域 公认 的 里 程 碑 模 
型 。 

BERT 有 两 部 分 : pre-training 和 fine-tuning。 在 pre-training 阶段 ， 会 在 没有 
标注 数据 且 不 同 预 训练 任务 上 训练 模型 ， 在 fine-tuning 阶段 ，BERT 会 根据 预 训 
练 模型 的 参数 初始 化 ， 然 后 在 下 游 任务 的 标注 数据 进行 fine-tuned。 

BERT 的 结构 如 图 一 所 示 : 


BERT (Ours) 


2-1 BERT 结构 图 
BERT 模型 中 使 用 的 是 WordPiece embeddings， 最 后 一 层 隐 藏 层 的 向 量 会 作 


为 每 个 token 的 表示 。 另 外 ， 有 3 个 特殊 字符 如 下 : 
e [Cs]: 用 于 分 类 任务 中 每 个 序列 的 第 一 个 tokens 
@ [SEP]: 作为 句子 对 CA, B) 的 分 割 符 ， 句 子 首尾 都 有 ， 有 具体 可 看 输入 输 
出 表示 部 分 。 
€ [MASK]: 用 于 masked ML 中 word 的 替换 。 
RoBERTa: RoBERTa 模型 是 BERT 的 改进 版 (A Robustly Optimized BERT, Bi! (ij 
单 粗 暴 称 为 强力 优化 的 BERT 方法 )。 在 模型 规模 、 算 力 和 数据 上 ， 与 BERT 相 比 
主要 有 以 下 几 点 改进 : 
e 更 大 的 模型 参数 量 (论文 提供 的 训练 时 间 来 看 , 模型 使 用 1024 块 V100 
GPU 训练 了 1 天 的 时 间 ) 

€ 更 大 bacth size。RoBERTa 在 训练 过 程 中 使 用 了 更 大 的 bacth size。 和 尝试 过 
从 256 到 8000 不 等 的 bacth size。 

e 更 多 的 训练 数据 (包括 : CC-NEWS 等 在 内 的 160GB 纯 文本 。 而 最 初 的 
BERT 使 用 16GB BookCorpus 数据 集 和 英语 维基 百科 进行 训练 ) 

另外 ，RoBERTa 在 训练 方法 上 有 以 下 改进 : 

e 去 掉 下 一 句 预测 (NSP) 任 务 

e 动态 掩 码 。BERT 依赖 随机 掩 码 和 预测 token。 原 版 的 BERT 实现 在 数据 
预 处 理 期 间 执 行 一 次 掩 码 ， 得 到 一 个 静态 掩 码 。 而 RoBERTa 使 用 了 动 
RS. 每 次 向 模型 输入 一 个 序列 时 都 会 生成 新 的 掩 码 模式 。 这 样 ， 在 
大 量 数 据 不 断 输 入 的 过 程 中 ， 模 型 会 逐渐 适应 不 同 的 掩 码 策略 ， 学 习 不 
同 的 语言 表征 。 

© 文本 编码 。Byte-Pair Encoding (BPE〉 是 字符 级 和 词 级 别 表征 的 混合 ， 支 
持 处 理 自然 语言 语料库 中 的 众多 常见 词汇 。 原 版 的 BERT 实现 使 用 字符 
级 别 的 BPE 词汇 , 大 小 为 30K, 是 在 利用 启发 式 分 词 规则 对 输入 进行 预 
处 理 之 后 学 得 的 。Facebook 研究 者 没有 采用 这 种 方式 , 而 是 考虑 用 更 大 
的 byte 级 别 BPE 词汇 表 来 训练 BERT， 这 一 词汇 表 包 含 50K 的 
subword 单元 ， 且 没有 对 输入 作 任 何 额外 的 预 处 理 或 分 词 。 

RoBERTa 建立 在 BERT 的 语言 掩蔽 策略 的 基础 上 ,修改 BERT 中 的 关键 超 参数 ， 
包括 删除 BERT 的 下 一 个 句子 训练 前 目标 , 以 及 使 用 更 大 的 bacth size 和 学 习 率 进 
行 训 练 。RoBERTa 也 接受 了 比 BERT 多 一 个 数量 级 的 训练 ， 时 间 更 长 。 这 使 得 
RoBERTa 表示 能 够 比 BERT 更 好 地 推广 到 下 游 任 务 。 


2.2 微调 (fine-tuning) 


fine-tuning 的 过 程 就 是 用 训练 好 的 参数 〈 从 已 训练 好 的 模型 中 获得 ) 初始 化 
自己 的 网 络 ， 然 后 用 自己 的 数据 接着 训练 ， 参 数 的 调整 方法 与 from scratch 训练 
过 程 一 样 〈 梯 度 下 降 ) 。 对 于 初始 化 过 程 ， 我 们 可 以 称 自己 的 网 络 为 目标 网 络 ， 
训练 好 的 模型 对 应 网 络 为 源 网 络 , 要 求 目 标 网 络 竺 初始 化 的 层 要 与 源 网 络 的 层 相 
同 〈 层 的 名 字 、 类 型 以 及 层 的 设置 参数 等 等 均 相 同 ) 。 


训练 入 口 定 义 如 图 2-2 所 示 
model.fine tuneing(False) 
train(10) 


model. fine_tuneing(True) 
train(10) 


图 2-2 
fine tuneing 方法 定义 如 图 2-3 所 示 


def fine tuneing(self, tuneing): 


self.tuneing - tuneing 
if tuneing: 
for i in pretrained.parameters(): 
i.requires grad - True 


pretrained.train() 
self.pretrained = pretrained 
else: 
for i in pretrained.parameters(): 
i.requires_grad_(False) 


pretrained.eval() 


self.pretrained = None 


图 2-3 
3 研究 方法 


3.1 模型 训练 


模型 定义 〈 下 游 模 型 ) : 


class Model(torch.nn.Module): 
def | init. (self): 
super(). init .O 
self.tuneing - False 
self.pretrained - None 


self.rnn = torch.nn.GRU(768, 768, batch first-True) 
self.fc - torch.nn.Linear(768, 8) 


def forward(self, inputs): 
if self.tuneing: 


out = self.pretrained(**inputs).last hidden. state 
else: 
with torch.no_grad(): 
out - pretrained(**inputs).last hidden state 


out，_ = self.rnn(out) 
out = self.fc(out).softmax(dim-2) 


return out 


def fine tuneing(self, tuneing):... 


图 3-1 
GRU 是 LSTM 网 络 的 一 种 效果 很 好 的 变 体 , 它 较 LSTM 网 络 的 结构 更 加 简单 ， 
而 且 效 果 也 很 好 , 因此 也 是 当前 非常 流 形 的 一 种 网 络 。 GRU 既然 是 LSTM 的 变 体 ， 
因此 也 是 可 以 解决 RNN 网 络 中 的 长 依赖 问题 。 
在 LSTM 中 引入 了 三 个 门 函 数 : 输入 门 、 遗 忘 门 和 输出 门 来 控制 输入 值 、 记 
忆 值 和 输出 值 。 而 在 GRU 模型 中 只 有 两 个 门 : 分 别 是 更 新 门 和 重 置 门 。 具 体 结 
构 如 图 3-2 Pras. 


h4 4 


图 3-2 
图 3-2 中 的 Zt 和 Rt 分别 表示 更 新 门 和 重 置 门 。 更 新 门 用 于 控制 前 一 时 刻 的 
状态 信息 被 带 入 到 当前 状态 中 的 程度 , 更 新 门 的 值 越 大 说 明 前 一 时 刻 的 状态 信息 


之 入 越 多 。 重 置 门 控制 前 一 状态 有 多 少 信息 被 写 入 到 当前 的 候选 集 hot E, E 
置 门 越 小 ， 前 一 状态 的 信息 被 写 入 的 越 少 。 


3.2 系统 模块 


1. 加 载 预 训练 模型 ， 如 图 3-3 所 示 。 


pretrained = AutoModel.from_pretrained(model_path, from_tf=True) 


| 3-3 
2. 加 载 分 词 器 ， 如 图 3-4 所 示 
tokenizer = AutoTokenizer.from pretrained(model path) 
图 3-4 
3. 数 据 加 载 器 ， 如 图 3-5 所 示 


loader = torch.utils.data.DataLoader(dataset=dataset, 
batch. size-16, 
collate. fn-collate. fn, 
shuffle-True, 
drop. last-True) 


3-5 
Ae >) Bi EN, Ir = 2e-5 if model.tuneing else 5e-4 


5. 优 化 器 使 用 Adam Ww 
6. 损 失 函 数 选用 ，torch.nn.CrossEntropyLoss() 
7. 训 练 过 程 如 图 3-6 所 示 。 
or epoch in range(epochs): 
for step, (inputs, labels) in enumerate(loader): 
if torch.cuda.is available(): 


inputs - inputs.cuda() 
labels - labels.cuda() 


outs - model(inputs) 


outs, labels - reshape and remove. pad(outs, labels, 
inputs['attention mask']) 


loss - criterion(outs, labels) 
loss.backward() 
optimizer.step() 
optimizer.zero. grad() 


KK] 3-6 
8. 使 用 的 数据 集 为 ，peoples_daily_ner 
9. 标 签 定 义 如 图 3-7 所 示 。 
"names": [ 
"0", 
"B-PER", 
"I-PER", 


"B-ORG", 
"I-ORG", 
"B-LOC", 
"I-LOC" 


图 3-7 
10. 对 上 述 数 据 集 进行 拆 分 ， 如 图 3-8 所 示 


"splits": 1 
"train": { 
"name": "train", 
"num. bytes": 14972456, 
"num examples": 20865, 
"dataset name": "peoples daily ner" 
b 
"validation": { 
"name": "validation", 
"num bytes": 1676741, 
"num examples": 2319, 
"dataset name": "peoples daily ner" 
$y 
"test": 1 
"name": "test", 
"num bytes": 3346975, 
"num examples": 4637, 
"dataset name": "peoples daily ner" 


KK] 3-8 


3.3 实验 结果 


1. 部 分 训练 数据 ， 三 列 分 别 表 示 loss、accuracy、 去 除 "0" 标 签 的 accuracy。 结 果 
表示 如 图 3-9 所 示 


.509660005569458 0.7643610785463072 0.07373271889400922 


.4120501279830933 
.4009833335876465 
.3902822732925415 
.4019396305084229 
.3929541110992432 
.3965702056884766 
-3743337392807007 


9. 


8619718309859155 


.8730337078651685 
.8945518453427065 
.8721088435374149 


8814102564102564 


.8779527559055118 
.8996960486322189 
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0.14035087719298245 
ð. 

0.34444444444444444 
e. 


12403100775193798 


25396825396825395 


.28846153846153844 
.256 
.32653061224489793 
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.4063763618469238 0.868020304568528 0.22962962962962963 
.372354507446289 0.9016602809706258 0.28703703703703703 
3-9 
用 验证 集 数据 进行 预测 并 输出 判断 结果 : 并 得 出 正确 率 和 校正 正确 率 (计算 
除了 0 以 外 元 素 的 正确 率 , 因 为 0 太 多 了 ,包括 的 话 ,正确 率 很 容易 虚 高 ) 。 训 练 结 
果 如 图 3-10 所 示 。 
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图 3-10 


最 终 测 试 结果 分 别 是 0.983961688040369 (£ 0 FRA) . 0.9080295790671218 
(CKE 0 标签 ) 


2. 进 行 测试 ， 测 试 代码 如 图 3-11 Aras. 
for step, (inputs, labels) in enumerate(loader test): 
if step -- 5: 
break 
print(step) 


with torch.no_grad(): 


outs = model load(inputs) 


outs, labels = reshape. and remove pad(outs, labels, 
inputs['attention mask']) 


counts = get correct and total count(labels, outs) 
correct += counts[0] 

total += counts[1] 

correct_content += counts[2] 

total_content += counts[3] 


print(correct / total, correct_content / total_content) 
图 3-11 
输出 为 : 0.9893986121819583  0.9495287958115183 
3. 预 测 实验 : 
标签 : ['O','B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', '|-LOC']。 
符号 意义 如 图 3-12 所 示 


图 3-12 
将 标签 用 下 标 代 替 ， 其 输出 可 看 作 如 图 3-13 所 示 结 


12* 人 
34* 机 构 


56* Wa 


7 dia 
图 3-13 
两 种 方式 进行 预测 实验 : 
C1) 用 验证 集 数 据 进行 预测 并 输出 判断 结果 : 
每 个 例子 输出 三 行 , 第 一 行为 输入 , 第 二 行为 期 望 输出 ， 第 三 行为 模型 实际 输出 。 


[CLs] 在 这 次 采访 中 , 长 治 人 民 医 院 宣教 科 郝 谋 南 同志 向 我 们 提供 了 这 样 一 串 数 据 ; 
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[CLS] 据 新 华 社 莫斯科 4 月 28 日 电 俄罗斯 总 统 叶 利 钦 28 日 下 午 与 基 里 延 科 总 理会 


见 后 ， 任 命 了 涅 姆 佐 夫 和 赫 里 斯 坚 科 两 名 副 总 理 和 第 一 批 7 名 部 长 。[SEP] 
[CLS]7 新 3 华 4 社 4 莫 5 斯 6 科 6。。 哦 5 罗 6 斯 6. 听 1 利 2 钦 2。…。 Jt 
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[CLS] 上 自治 区 党 委 常 委 、 秘 书 长 邱 石 元 是 工作 中 需要 使 用 电话 最 多 的 人 之 一 , 但 是 
他 认为 ,只 有 做 到 长 话 短 说 , 并 做 到 移动 电话 [UNK] 三 不 用 [UNK]: 在 办 公 室 不 用 、 
在 会 议 室 不 用 、 回 到 家 里 不 用 ， 每 月 话费 够 用 了 。[SEP] 
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[CLS] 这 其 中 ， 美 国 和 俄罗斯 队 各 具 特 色 ， 可 为 代表 。[SEP] 
[CLS17。。“。“。 美 3 国 4. 俄 3 罗 4 斯 4 队 4。，。。。。。。，， [SEP]7 
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[CLS] 该 书 是 迄今 为 止 国内 较为 全 面 、 系 统 地 研究 周恩来 经 济 思 想 芯 
助 于 深化 对 周恩来 思想 的 研究 。[SEP] 
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[CLS] 重 头 排列 是 嘉德 这 次 拍卖 的 一 大 特点 。[SEP] 
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[CLS] 两 个 月 后 少女 平静 地 离 去 , 她 的 身边 簇拥 着 俊平 的 朋友 们 ， RRC OF 
IWI x A. [SEP] 


[CLS]7。。。。。。。。。。。。。。。。。。。 俊 1 平 2。。。。。。。。。 唆 
1 平 2。。。。。。。 [SEP]7 
[CLS]7。。。。。。。。。。。。。。。。。。。 俊 1 平 2。。。。。。。。。 唆 
1 平 2。。。。。。。 [SEP]7 


[CLS] 由 他 们 创作 演出 的 《征婚 启示 》 开 了 话剧 院 团 自己 创作 演出 音乐 剧 的 先河 ， 
受到 广大 观众 的 热烈 欢迎 。[SEP] 
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[CLS] 此 前 , 巴勒斯坦 方面 已 同意 接受 美国 的 计划 ,并 希望 美国 促使 以 色 列 也 接受 
该 计划 。[SEP] 
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[CLS] 这 时 ， 远 处 驶 来 一 辆 红色 [UNK] 菲 亚 特 [UNKJ， 女 主人 下 车 问 明 缘由 后 ， 便 拿 
出 她 车 上 的 尼龙 绳 ， 想 用 她 的 车 把 我 的 车 拖 出 来 。[SEP] 
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[CLS]1986 年 夏天 ， 语 文 出 版 社 安排 吕 老 去 怀柔 一 个 招待 所 休息 几 天 。[SEP] 
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[CLS] 金 人 庆 强 调 ， 全 国税 务 系统 要 按照 国务 院 的 要 求 ， 加 强 征管 ， 挖 掘 潜力 ， 标 
本 兼治 ， 确 保 增 收 目 标的 实现 ,要 顾全 大 局 ， 为 国 分 忧 ， 把 收入 任务 及 时 落实 到 
基层 ; 要 抓紧 清理 漏 管 户 ， 对 重点 税源 加 强 专项 检查 ， 大 力 清理 欠 税 ， 严 格 期 初 
库存 抵 扣 ; 要 加 强加 油 站 、 出 租车 的 税收 征管 ， 要 采取 得 力 措施 ， 认 真 落 实 调整 
商业 企业 增值 税 一 般 纳税 人 和 交通 运输 企业 抵 扣 增值 税 比 例 的 税收 政策 ; 要 强化 
税务 稽查 ， 进 一 步 加 快 税务 稽查 队伍 建设 ,充分 发 挥 重 查 职能 ， 严厉 打 击 偷 逃税 
行为 ; 要 根据 税源 结构 变化 ， 及 时 调整 征管 力量 , 确保 新 的 经 济 增长 点 同时 也 成 
为 新 的 税收 增长 点 。[SEP] 
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(2) 做 了 一 个 QT 可 视 化 界面 ， 可 呈现 实验 结果 ， 如 图 3-14 所 示 


in 


共和 党 总 统 辞 登 当 地 时 间 12 月 6 日 乱 求 共和 党 人 向 乌克兰 提供 新 的 军事 援助 


out 


共和 党 -ORG， 拜 登 PER， 共 和 党 -ORG， 乌 克 兰 -LOC 


图 3-14 
如 图 3-14 中 ， 输 入 “共和 党 总 统 拜 登 当地 时 间 12 月 6 日 奶 求 共和 党 人 向 乌 
克 兰 提供 新 的 军事 援助 。” 输 出 为 “共和 党 -ORG， 拜 登 -PER， 共 和 党 -ORG， 乌 
== OC" 


本 文 根 据 中 文 命名 实体 识别 的 课题 研究 背景 和 研究 现状 进行 了 分 析 和 总 结 ， 
对 国内 外 研究 现状 进行 了 分 析 与 总 结 。 在 文中 介绍 了 所 使 用 的 预 训 练 模型 ,并 对 
其 进行 了 微调 , 最 后 做 了 一 个 简单 的 可 视 化 界面 呈现 实验 结果 , 实现 对 中 文 的 命 
名 实体 识别 。 
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